从吴恩达的“AI的壁垒非算法而是数据”说起!
点击上方
请您点击“与数据同行”以“关注”,关于数据的实践与思考,每周一我在这里等你!
作者:傅一平 邮箱:41722293@qq.com
最近在旧金山举办的人工智能大会上,吴恩达发表了主题是“AI is the new electricity”的主题演讲,但在其阐述AI的时候,重点强调了数据的重要性,关于数据的论述贯穿全文,大家可以看看他的原话,笔者特意挑选了八句话,结合自身体会来说说这些话后面深层次的含义:
第一句是这样说的:
“语音识别的任务,也是一种端到端的学习,拥有足够的数据,语音识别就能达到很好的效果,亚马逊Alexa、苹果Siri、百度DuerOS等等依靠AI算法和数据来达到良好的效果”。
如果你看过吴军的《数据之美》,就知道语音识别等自然语言处理技术近年来突飞猛进的原因,早期的研究集中采用基于规则的方法,即要理解语法结构,但其无法从根本上将自然语言理解实用化,直到人们尝试基于统计的方法进行自然语言处理,才有了突破性进展和实用的产品。
这里的统计的方法要依赖两个事情,一个就是数据,即海量的语意库,一个是合适的算法,为什么数据变得如此重要呢?
这里简要介绍下翻译的做法,你就大致理解了数据的价值,比如你要将某段英文翻译成中文,用数学公式是如下表达:
P(S1,S2,S3…|O1,O2,O3…),即在输出英文单词序列O1,O2,O3…的前提下,最可能的中文单词序列S1,S2,S3…是什么,这是一个概率的问题,选择什么样的S1,S2,S3…让这个概率最大?
利用贝叶斯公式,P(S1,S2,S3…| O1,O2,O3…) 等价为:P(O1,O2,O3… | S1,S2,S3…)*P(S1,S2,S3…)。
而P(S1,S2,S3…)=P(S1)*P(S2|S1)*P(S3|S2,S1)…,因此公式变为:P(O1,O2,O3…| S1,S2,S3…)* P(S1)*P(S2|S1)*P(S3|S2,S1)…
而要求解这个异常艰难,因为S1,S2,S3等相互依赖,这个概率不好求,隐含马尔科夫模型就是来简化这个计算的,它一方面假设了任何一个St的出现仅与前一个St-1有关,另一方面假设了Ot仅跟St相关的独立性原则,因此最后演变为如下公式:P(O1|S1)*P(O2|S2)*P(O3|S3)*…*P(S2|S1) *P(S3|S2)*…。
而求解P(Ot|St),P(St|St-1),则可以基于中英文的语意库的统计,比如P(Ot|St)= P(Ot,St)/ P(St),只要在翻译库中统计St这个中文单词出现的个数,每次出现的输出Ot是什么,而且分别有多少次(Ot,St),就可以得到两者的比值,如果未看明白,可以参考《数据之美》的第五章。
你可以看到,这些比值的计算完全依赖语意库的完备性,即数据的完备性,而牛逼的大师已经基本解决了算法问题,无论是马尔科夫、鲍姆或是李开复等,因此,语意库即数据成为了解决问题的核心,吴恩达所谓的壁垒其实就是这个意思。
在互联网未起来之前,搜集海量的语意库基本是不可能的,而现在都成为了现实,当前拥有海量语意库的是哪些企业呢?显然是诸如Google、百度等这种互联网公司,这也是它们当前在人机交互领域领先的核心原因,这是吴恩达的话外之音。
接下来我们再来理解第二句话:
“监督学习的缺点是它需要大量的标注数据,这影响了它的普及”。
无论是语音识别或是图像处理,大部分都是监督学习,即要对每个样本赋予标签,但这些有标签的样本可不是那么容易获得的,当前世界上虽然有一些现存的开放的图片库,但量太小了,实验用用还可以,但放到某个生产领域显然是不靠谱的。
比如Alphago在开始的时候样本也仅限于上百万个现成的线上棋谱,但这是远远不够的,因为很多围棋下发前人没试过,就没有样本,后来DeepMind让Alphago自我对弈产生新的棋谱才逐步解决这个问题,Master的横空出世及神来之笔肯定不是现役棋谱的灵光一现。
李开复在清华大学“清华学堂计算机科学实验班”题为《人工智能的黄金时代》的演讲中也提到了类似的观点,大师们的观点往往不谋而合:
“如果你有垄断性的大数据,你就会有很大的优势。关于数据需要注意的几点是,首先垄断性大数据不是公开的数据,不是剽来的数据,也不是买来的数据,因为这样的事情你能做竞争对手也能做。其次,无标签的数据也不会给你带来优势。再次,如果是人工标签的数据也不行,因为人工标签太慢了。最好的数据是闭环的数据,所谓闭环的数据就是在你应用的时候可以捕捉到数据并且知道最终你根据数据做出的抉择对或不对。我们投资的face++,它有和美图、阿里的合作,就一定程度形成了特别大的数据的优势。”
再来看第三句话:
“为什么神经网络已经存在了这么多年,AI却近年来才开始快速发展? 随着数据量的增加,传统机器学习算法的性能并没有明显提升,而神经网络的性能,会有比较明显的提升,神经网络越大,性能的提升就越明显,为了达到最佳的性能,你需要:大量数据以及大型的神经网络”。
最近笔者的团队也在一些场景进行深度学习的探索,发现企业内一方面很难找到适用的场景,另一方面发现可用的样本非常有限,都是人工搜集,要发挥出神经网络的优势其实比较难,最具性价比的方法倒是传统的机器学习方法了。
因此,大家在做深度学习的时候,一定要能找到具有海量数据的场景,如果数据不够多,就要三思了,很多集成学习已经足够好,不要为了深度学习而深度学习,当然如果仅仅是探索一下,跑通流程,也就无所谓了。
再看第四句话:
“强化学习对数据的需求程度,甚至比监督学习更严重,特别是强化学习算法很难获取到足够的数据。又举例子:AI+游戏中,强化学习表现很好,这是因为在电子游戏中,算法可以重复玩无限次,获取无限的数据。”
最近笔者正好看到关于强化学习的一些论述, 提到强化学习对于数据的要求的确很高,电子游戏是很好的切入场景,DeepMind也在做星际争霸的AI,但据说现在效果一般,一个可能的原因是电子游戏数据量太多了,相较于围棋上了一个量级,因为屏幕的信息输出实在是太多太快了,比如画面变动一个像素可能都算是新的图片,因此会存在处理能力和算法优化的问题。
再看第五和第六句话:
“AI的崛起正改变着公司的竞争格局。公司的壁垒不再是算法,而是数据,让算法利用足够的数据,使得产品运行起来,然后通过产品来获取用户,用户在提供更多的数据……周而复始,又举例:搜索公司,搜索公司有着大量的数据,显示如果用户搜了这个词,就会倾向于点哪个链接。”
“AI公司倾向于策略性地获取数据,我曾经这么做过:在一个地区发布产品,为了在另一个地区发布产品而获取数据,这个产品又是为了在下一个地区发布产品来获取数据用的,如此循环。而所有产品加起来,都是为了获取数据驱动一个更大的目标。”
其实这里提出了一个很深刻的观点,就是致力于AI的公司一定要通过产品创新主动搜集数据,要形成数据搜集的闭环,即使是当前拥有很多数据的公司,也不能满足于现状,在打造产品的时候,除了关注功能,也要末雨绸缪想到如何更好的获取新的数据,甚至是为了数据而去开发功能或产品。
无论是苹果的siri或是谷歌翻译,它们都通过产品的推出搜集了大量的数据,这也是其功能越来越强大的原因,算法倒是其次了。
因此,如果企业要搞大数据,一定要将数据采集及整合作为大数据的第一要务,很多企业号称有很多的数据,但如果连存量产品的留存数据都难以完整采集过来,就不能指望对于企业新产品的数据采集上有所要求,企业一定要建立统一的数据资产管理团队来推进这个事情。
再看第七句话:
“我很清楚该如何构建搜索算法,但是如果没有大型搜索公司那样的数据集,简直难以想象小团队如何构建一个同样优秀的搜索引擎,这些数据资产构建了坚固的壁垒。”
这句话解释了当前大量人工智能专家进入互联网企业的原因,因为没有数据,人工智能的研究就很难深入,这些顶级专家必须走出实验室。
对于拥有数据而缺乏人才的很多企业,这也是个全新的机会,如果能促成与研究机构的合作,将是双赢的局面,否则,企业会面临守着一堆数据却无法开采的窘境,毕竟现在人工智能专家还是非常稀缺的。
不好的是,数据壁垒可能会产生数据寡头的现象,大数据时代可能由于数据的累积特点导致强者越强的效应,而且这一代的数据寡头将与以前的寡头不一样,因为垄断的是基本的生产资料,如何让全社会的数据开放和流通起来,同时避免隐私泄露,将是未来巨大的挑战。
再看第八句话:
“很多公司有很多数据库,但很分散,如果工程师想把这些数据放在一起来做点什么,可能需要和50个不同的人来沟通。所以我认为建立一个统一的数据库,所有的数据都存储在一起是一种很好的策略。”
这个其实就是数据仓库的使命,在大数据时代,数据仓库将迎来新的建设高潮,但由于大数据4V的特点,其采用的技术将与上一代的数据仓库完全不同,这个笔者以前也有相关论述。
大数据时代,数据为第一要务,但新增数据的含义是非常广的 ,如果企业的数据还未采集,就需要尽快采集过来,如果采集过来了,就要考虑如何整合,如果整合了,就要考虑如何提升质量,如果提升质量了,就要考虑如何从数据中创造新的数据,如果连这个都做到了,就要考虑如何去运营这些数据,所有这些构成了企业的数据壁垒,才让这个企业的大数据运营具有了独一无二的优势。
数据管理者,任重而道远啊。
历史足迹
传统BI的认知:
大数据的实践:
数据管理的领悟:
《七幅图读懂企业的数据字典》
数据人员的修养:
运营商大数据:
我的读书笔记:
▼
与数据同行
ysjtx_fyp
长按二维码识别,关注此号!